查看原文
其他

全球性能最强4050亿开源大模型Llama 3.1来了!小扎反击:开源 AI 是前进的道路|钛媒体AGI

林志佳 钛媒体AGI
2024-09-05

就在刚刚,Meta官宣了一则 AI 领域的大消息。

7月23日晚23点,Meta正式发布全球性能最强、高达4050亿参数版本的开源大模型Llama 3.1,背后需要数月的训练时间和数亿美元的计算能力。该公司表示,这是对 4 月份发布的Llama 3的重大更新。

Meta首席执行官马克·扎克伯格 (Mark Zuckerberg) 称Llama 3.1为“最先进的”模型,并表示将与 OpenAI、谷歌等竞争对手的类似产品相媲美。

Meta 高管表示,该模型主要用于为 Meta 内部和外部开发人员的聊天机器人提供动力,具有广泛的新功能,包括改进推理以帮助解决复杂的数学问题或立即合成整本书的文本。它还具有生成式人工智能功能,可以通过文本提示按需创建图像。一项名为“想象你自己”的功能允许用户上传他们的脸部图像,然后可以使用该图像在不同的场景和场景中创建他们的描述。

“我认为 AI 助手最重要的产品将是它的智能程度,”扎克伯格表示,Meta正在建造的 Llama 模型是世界上最先进的。他直言,Meta 已经在开发 Llama 4。

Meta 在人工智能方面的投资一直很大。扎克伯格表示,Meta 的 Llama 3 模型的训练计算能力花费了“数亿美元”,但他预计未来的模型成本会更高。他说,“展望未来,计算能力将达到数十亿美元”。

2023 年,Meta 试图控制其在未来技术和管理层上的部分支出,在扎克伯格称之为“效率年”的一年中削减了数千个工作岗位。但扎克伯格仍然愿意在 AI 军备竞赛上花钱。

Meta 在 4 月份告诉投资者,今年计划花费比最初预期多数十亿美元的资金,其中一个核心原因是对 AI 的投资。据公司博客文章称,预计到今年年底,该公司将拥有约 350,000 个 Nvidia英伟达H100 GPU。而H100 芯片已成为用于训练 Llama 和 OpenAI 的 ChatGPT 等大型语言模型的基础技术,每个芯片的成本可能高达数万美元。

值得一提的是,Meta 使用其 Llama 模型为其 AI 聊天机器人(称为 Meta AI)提供支持,该机器人在其应用(包括 Instagram 和 WhatsApp)内运行也作为独立产品运行。

扎克伯格表示,Meta  AI聊天机器人拥有“数亿”用户,并预计到今年年底它将成为世界上使用最广泛的聊天机器人。另外,他认为,Meta 之外的其他人将使用 Llama 来训练他们自己的 AI 模型。

扎克伯格强调,开源人工智能是前进的道路。

我相信人工智能也会以类似的方式发展。今天,几家科技公司正在开发领先的封闭模型。但开源正在迅速缩小差距。去年,Llama 2 仅与落后的上一代模型相当。今年,Llama 3 与最先进的模型相媲美,并在某些领域处于领先地位。从明年开始,我们预计未来的 Llama 模型将成为业内最先进的。但即使在此之前,Llama 已经在开放性、可修改性和成本效益方面处于领先地位。

今天,我们正朝着开源 AI 成为行业标准的目标迈进。我们发布了第一个前沿级开源 AI 模型 Llama 3.1 405B,以及全新改进的 Llama 3.1 70B 和 8B 模型。除了相对于封闭模型具有显著更好的成本/性能之外,405B 模型是开放的这一事实将使其成为微调和提炼较小模型的最佳选择。

除了发布这些模型之外,我们还与一系列公司合作,以发展更广泛的生态系统。亚马逊、Databricks 和 Nvidia 正在推出全套服务,以支持开发人员微调和提炼自己的模型。Groq 等创新者为所有新模型构建了低延迟、低成本的推理服务。这些模型将在所有主要云平台上提供,包括 AWS、Azure、Google、Oracle 等。Scale.AI、戴尔、德勤等公司已准备好帮助企业采用 Llama 并使用自己的数据训练自定义模型。随着社区的发展和更多公司开发新服务,我们可以共同使 Llama 成为行业标准,并将 AI 的好处带给每个人。

Meta 致力于开源 AI。我将概述为什么我相信开源是最适合您的开发堆栈、为什么开源 Llama 对 Meta 有利、为什么开源 AI 对世界有利,因此是一个将长期存在的平台。”扎克伯格表示。

扎克伯格指出三点,为什么开源 AI 有利于大众。

首先,为什么开源 AI 对开发人员有利。

我们需要训练、微调和提炼我们自己的模型。每个组织都有不同的需求,最好使用不同大小的模型来满足这些需求,这些模型是根据其特定数据进行训练或微调的。设备上的任务和分类任务需要小型模型,而更复杂的任务则需要更大的模型。现在,您将能够采用最先进的 Llama 模型,继续使用您自己的数据进行训练,然后将它们提炼成最佳大小的模型 - 而无需我们或任何其他人查看您的数据。

我们需要掌控自己的命运,而不是被一家封闭的供应商所束缚。许多组织不想依赖他们无法自行运行和控制的模型。他们不希望封闭模型提供商能够更改他们的模型、更改他们的使用条款,甚至完全停止为他们提供服务。他们也不想被束缚在拥有模型专有权的单一云中。开源使拥有兼容工具链的广泛公司生态系统成为可能,您可以轻松地在它们之间移动。 

我们需要保护我们的数据。许多组织处理需要保护的敏感数据,并且不能通过云 API 发送到封闭模型。其他组织根本不信任封闭模型提供商来处理他们的数据。开源通过让您可以在任何您想要的地方运行模型来解决这些问题。人们普遍认为,开源软件往往更安全,因为它的开发更加透明。

我们需要一个高效且运行成本低廉的模型。开发人员可以在自己的基础设施上对 Llama 3.1 405B 进行推理,成本约为使用 GPT-4o 等封闭模型的 50%,无论是面向用户还是离线推理任务。

我们希望投资于将成为长期标准的生态系统。许多人认为开源的发展速度比封闭模式更快,他们希望在能够为他们带来长期最大优势的架构上构建系统。 

其次,为什么开源 AI 对Meta有利。

Meta 的商业模式是为人们打造最佳体验和服务。要做到这一点,我们必须确保我们始终能够使用最佳技术,并且不会陷入竞争对手的封闭生态系统,因为竞争对手会限制我们的构建。

我成长过程中的一个经历就是,我们构建的服务受到苹果允许我们在其平台上构建的内容的限制。从他们向开发者征税的方式、他们应用的任意规则以及他们阻止发布的所有产品创新来看,很明显,如果我们能够构建我们产品的最佳版本,而竞争对手无法限制我们能够构建的内容,那么 Meta 和许多其他公司将可以自由地为人们构建更好的服务。从哲学层面上讲,这是我如此坚信为下一代计算构建开放的 AI 和 AR/VR 生态系统的主要原因。

人们经常问我是否担心开源 Llama 会放弃技术优势,但我认为这忽略了大局,原因如下:

首先,为了确保我们能够使用最好的技术,并且不会长期被困在封闭的生态系统中,Llama 需要发展成为一个完整的生态系统,包括工具、效率改进、芯片优化和其他集成。如果我们是唯一一家使用 Llama 的公司,那么这个生态系统就不会发展,我们的境况也不会比封闭的 Unix 好。

其次,我预计人工智能开发将继续保持高度竞争,这意味着开源任何给定模型并不会失去当时相对于下一个最佳模型的巨大优势。Llama 成为行业标准的道路是一代又一代地保持竞争力、高效和开放。

第三,Meta 与封闭模型提供商之间的一个关键区别是,出售 AI 模型访问权限不是我们的商业模式。这意味着公开发布 Llama 不会像封闭提供商那样削弱我们的收入、可持续性或投资研究的能力。(这是一些封闭提供商不断游说政府反对开源的原因之一。)

最后,Meta 拥有悠久的开源项目和成功历史。我们通过开放计算项目发布我们的服务器、网络和数据中心设计,并让供应链在我们的设计上实现标准化,从而节省了数十亿美元。我们通过开源领先的工具(如 PyTorch、React 等)从生态系统的创新中受益匪浅。只要我们长期坚持,这种方法就会一直对我们有效。

最后,为什么开源人工智能对世界有益。

我认为开源对于 AI 的美好未来必不可少。与任何其他现代技术相比,AI 更具有潜力提高人类的生产力、创造力和生活质量,并加速经济增长,同时推动医学和科学研究的进步。开源将确保全世界更多的人能够享受 AI 带来的好处和机会,权力不会集中在少数公司手中,并且该技术可以更均匀、更安全地应用于整个社会。

关于开源人工智能模型的安全性的争论一直存在,我的观点是开源人工智能将比其他选择更安全。我认为政府会得出结论,支持开源符合他们的利益,因为它将使世界更加繁荣和安全。

我理解安全的框架是,我们需要防范两类伤害:无意伤害和有意伤害。无意伤害是指人工智能系统可能造成伤害,即使这不是运行该系统的人的意图。例如,现代人工智能模型可能会无意中给出不良的健康建议。或者,在更未来化的情况下,有人担心模型可能会无意中自我复制或过度优化目标,从而损害人类。故意伤害是指坏人使用人工智能模型来造成伤害。

值得注意的是,无意伤害涵盖了人们对人工智能的大部分担忧——从人工智能系统将对数十亿使用它们的人产生什么影响,到大多数对人类来说真正灾难性的科幻场景。在这方面,开源应该更加安全,因为系统更加透明,可以受到广泛的审查。从历史上看,开源软件因这个原因而更加安全。同样,使用 Llama 及其安全系统(如 Llama Guard)可能比封闭模型更安全、更可靠。出于这个原因,大多数关于开源人工智能安全的讨论都集中在故意伤害上。

我们的安全流程包括严格的测试和红队测试,以评估我们的模型是否能够造成重大伤害,目标是在发布之前降低风险。由于模型是开放的,任何人都可以自己测试。我们必须记住,这些模型是根据互联网上已有的信息进行训练的,因此在考虑危害时,首先应该考虑的是,与可以从 Google 或其他搜索结果中快速检索到的信息相比,模型是否能够造成更大的伤害。 

在推理故意伤害时,区分个人或小规模行为者可能做的事情与拥有大量资源的国家等大规模行为者可能做的事情是有帮助的。

在未来的某个时候,个别不良行为者可能能够利用人工智能模型的智能,从互联网上可用的信息中制造出全新的危害。此时,权力平衡对人工智能安全至关重要。我认为生活在一个人工智能被广泛部署的世界会更好,这样更大的参与者就可以制衡较小不良行为者的力量。这就是我们在社交网络上管理安全的方式——我们更强大的人工智能系统可以识别和阻止来自不太成熟的参与者的威胁,这些参与者通常使用规模较小的人工智能系统。更广泛地说,大规模部署人工智能的大型机构将促进整个社会的安全和稳定。只要每个人都能使用类似的几代模型——开源所促进的——那么拥有更多计算资源的政府和机构将能够用更少的计算来制衡不良行为者。 

下一个问题是,美国和民主国家应该如何应对像中国这样拥有大量资源的国家的威胁。美国的优势是去中心化和开放式创新。有些人认为,我们必须封闭我们的模式,以防止中国获得这些模式,但我认为这行不通,只会让美国及其盟友处于不利地位。我们的对手擅长间谍活动,窃取适合拇指驱动器的模式相对容易,而且大多数科技公司的运营方式远没有让这变得更加困难。最有可能的情况是,一个只有封闭模式的世界,会导致少数大公司和我们的地缘政治对手能够获得领先的模式,而初创公司、大学和小企业则错失机会。此外,将美国创新限制在封闭开发中,增加了我们完全无法领先的可能性。相反,我认为我们最好的策略是建立一个强大的开放生态系统,让我们的领先公司与我们的政府和盟友密切合作,以确保他们能够最好地利用最新进展,并在长期内实现可持续的先发优势。

当你考虑未来的机遇时,请记住,当今大多数领先的科技公司和科学研究都是建立在开源软件之上的。如果我们共同投资,下一代公司和研究将使用开源人工智能。这包括刚刚起步的初创企业,以及可能没有资源从头开发自己的最先进人工智能的大学和国家的人。

最重要的是,开源人工智能代表了世界上利用这项技术为每个人创造最大经济机会和安全的最佳机会。

然而,尽管承诺开放 Llama,但扎克伯格和其他公司高管仍对用于训练 Llama 3.1 的数据集保密。

“尽管它是开放的,但我们也是为自己设计的,”他解释道。扎克伯格表示,Meta 正在使用来自 Facebook 和 Instagram 的公开用户帖子,以及该公司从其他公司获得许可的其他“专有”数据集,但没有透露具体细节。

对于中国大模型发展,“有一连串的想法是,‘好吧,我们需要把一切都封锁起来,’”他说。“我只是碰巧认为这确实是错误的,因为美国依靠开放和去中心化的创新而繁荣。我的意思是,这就是我们经济的运作方式,这就是我们创造出色产品的方式。所以我认为,封锁一切会限制我们的行动,让我们更有可能无法成为领导者。”

扎克伯格强调,美国在 AI 进步方面永远领先中国数年也是不现实的,但他指出,即使是几个月的小幅领先优势,随着时间的推移也会“复合”,从而给美国带来明显的优势。

(本文首发于钛媒体App,作者|林志佳)


继续滑动看下一个
钛媒体AGI
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存